Python 在数据分析工作中的地位与 R 语言、SAS、SPSS 比较如何? 您所在的位置:网站首页 spss 数据可视化 Python 在数据分析工作中的地位与 R 语言、SAS、SPSS 比较如何?

Python 在数据分析工作中的地位与 R 语言、SAS、SPSS 比较如何?

2023-06-11 00:50| 来源: 网络整理| 查看: 265

研究生读的是应用统计专业,以上几种编程语言或软件刚好都接触过。

从定位上讲,Python、R 是编程语言,而 SAS、SPSS 是统计分析软件。

先来张图简单感受一下这几者之间的区别:

1. SPSS大二参加了美国大学生数学建模竞赛,是用 SPSS 做的聚类分析,混了个二等奖

相对而言,SPSS 是最简单的一个,上手简单,操作容易,交互界面友好,只需要点一点鼠标,就可以完成多元回归分析、聚类分析、方差分析等常见的统计分析模型,输出的结果也十分美观。

虽然 SPSS 也支持通过 syntax 的语法来编程实现较为复杂的功能,但很少有人用,就像能够熟练使用 Excel 的人,绝不部分都不会用 VBA 编程一样,确实没有必要。

鉴于 SPSS 简单易学的特性,对于不太懂编程,但想要跑统计模型的人来说,是非常有吸引力的。比如想要用统计方法分析回收的调查问卷数据,或者做一些假设检验、方差分析方面的工作,都可以使用 SPSS 来实现。

实际数据分析的工作中,我并没有遇到过使用 SPSS 的场景,一般统计建模的需求,都是通过写 Python/R 代码来实现的。

因为相比较 SPSS 已经封装好的黑盒,用代码随心所欲地操作数据,体验是完全不一样的,当然,对 SPSS 感兴趣的同学可以了解一下,毕竟技多不压身。

2. SASSAS 让我印象最深刻的,是多达 10G 的安装包,当年在人大经济论坛下载了一晚上

SAS 是一个模块化、集成化的大型应用软件系统,把数据存取、管理、分析和展现有机地融为一体,当然价格也不菲。它由数十个专用模块构成,功能包括数据访问、数据储存及管理、数据分析、图形处理、计量经济学与预测、运筹学等。

其中常用的功能模块包括:

1)Base SAS 作为 SAS 系统的核心,负责数据管理,交互应用环境管理,进行用户语言处理,调用其它 SAS 模块;

2)SAS/GHAPH 可将数据及其包含着的深层信息以多种图形生动地呈现出来,如直方图、饼图、星形图、散点图、曲线图、三维曲面图、等高线图及地理图等;

3)SAS/STAT 覆盖了所有的实用数理统计分析方法,是国际统计分析领域的标准软件;

4)SAS/ETS 提供丰富的计量经济学和时间序列分析方法,是研究复杂系统和进行预测的有力工具。

如果在某招聘网站搜索 SAS 关键字,会发现岗位基本都是医药公司的 SAS 程序员,需要编写 SAS 代码完成临床试验的统计分析,或者是银行保险等公司的风控建模分析师,使用 SAS 开展风险策略、风险建模相关的工作。

3. RR 语言是统计专业的必修课,课程都学完了,居然都不知道 tidyverse 和 ggplot2 这两个包

R 语言是一门统计编程语言,最早由奥克兰大学的 Ross Ihaka 和 Robert Gentleman 在 20 世纪 90 年代初开发,主要用于课堂教学,是 S 语言的一种实现 ( S语言是贝尔实验室开发的 )。2000.02 月,R 的第一个版本 1.0.0 发布,目前 R 语言是由一个 20 人左右的 R 核心团队 ( R Core Team ) 开发和维护,最新版本是 4.2.1。

R 语言主要有以下三大优势:1. 免费开源、跨平台运行;2. 强大的统计分析能力;3. 顶尖水准的绘图功能,著名的数据竞赛平台 Kaggle 也将 R 语言作为首选编程语言之一。

使用 R 语言,可以处理数据导入、数据清洗、数据转换、数据可视化、数据建模等一系列的流程,轻松胜任数据分析的工作。

这里不得不提一下 R 语言大神 Hadley Wickham,贡献了ggplot2、tidyverse、dplyr 等一系列易于入门、形式优雅而又功能强大的 R 包,把 R 语言发扬广大,变成了近年来大热的数据科学领域的主要编程语言。

作为一名互联网行业的数据分析师,需要绘制一些复杂精巧的图形时,R 语言的 ggplot2 仍然是我的首选,这一点我觉得 Python 目前是比不了的。

另外,使用 R 语言的 tidyverse 包对数据进行处理时,简单方便的管道流操作写法,也是我喜欢用 R 做数据处理的原因。

4. Python因为要写爬虫抓数据的缘故,开始了解和自学 Python,为之后的数据分析之路埋下了种子

Python 作为当今炙手可热的编程语言,具有简单易学、免费、开源、可移植、可扩展等优点,在人工智能、大数据、数据分析、运维、Web 开发等领域,都有着广阔的应用前景。

Numpy、Pandas、Matplotlib、Seaborn、Scikit-learn 等一系列耳熟能详的库,让 Python 在进行数据分析、数据处理、数据可视化、数据建模的工作时,都变得容易了很多,直接调包就可以。

从 TIOBE 编程语言指数(反映编程语言流行趋势的一个指标)排行榜可以看出,近年来 Python 的排名一直稳步提升,最新公布的 2022.06 月数据,Python 仍然稳居第一,市场份额 12.20%。

在日常数据分析的工作中,使用 Python 也可以完成数据清洗、数据转换、数据可视化、数据建模等一系列的工作,速度和性能比 R 语言更佳。

当我需要写爬虫抓取数据,避免手工整理,或者建模预测一些业务指标的时候,Python 仍然是我的首选编程语言

至于 Python 和 R 谁更好用,应该学哪个,仁者见仁,智者见智,我建议两者都可以了解一下,并且应用在自己的工作中,使用一段时间之后,就会有自己的判断。

如果你以后从事了数据分析师的工作,偷偷告诉你,用的最多的工具是 SQL,不要惊讶。

5. 总结

综上所述,基于特定场景的比较才有意义:

如果想跑统计模型但又不想写代码,建议学习 SPSS如果想在医药、金融公司从事数据分析的工作,建议学习 SAS如果想在互联网行业从事数据分析的工作,建议学习 Python / R如果想在生信领域大展宏图,或者对可视化比较感兴趣 ,建议学习 R

以上编程语言或软件,都是数据分析师在工作中,需要用到的工具,但数据分析师需要掌握的,并不仅仅只有工具。一些对数据分析师发展起决定作用的软技能,包括分析思维、业务知识、沟通能力、汇报水平、对数据的敏感度等,也是需要重视的。

如果想对这些内容有更加深入的了解,知乎知学堂官方推出的数据分析训练营实战课程,通过精心挑选的项目对数据分析的工作流程进行了详细讲解。

碰到不懂的地方,有专门的老师在线答疑,也可以和其他小伙伴一起在社群打卡,互相监督,学起来更有动力,几乎免费就可以开启体验之旅。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有